Elasticsearch 的 Dynamic Field Mapping 注意事項

TLDR

Elasticsearch 的 Dynamic Mapping 功能雖然方便，但在生產環境中隱藏了許多潛在問題。以下分析常見的踩雷情境與原因：

什麼情況下會遇到： 當系統自動將字串欄位建立索引時。

原因分析：預設情況下，Elasticsearch 會將字串同時儲存為 text（用於全文檢索）與 keyword（用於精確比對、排序與聚合）的子欄位。這種雙重索引會導致儲存空間倍增。
建議做法：若非必要，應明確定義欄位型別，避免不必要的索引開銷。

什麼情況下會遇到： 當需要使用地理查詢、巢狀物件或自訂分詞時。

原因分析：
- 地理位置：若未預先定義為 geo_point 或 geo_shape，資料會被視為普通 object，導致無法使用 geo_distance 等地理查詢功能。
- 巢狀物件：動態對應會將陣列物件扁平化為 object，導致無法正確查詢陣列內部的獨立物件。
- 自訂分析器：動態對應僅會使用預設的 standard analyzer，無法套用中文分詞或同義詞處理。
建議做法：針對特定查詢需求，必須在 Mapping 中明確指定型別與 analyzer。

什麼情況下會遇到： 當資料來源包含大量動態產生的 Key 或使用者自訂欄位時。

Elasticsearch 根據 JSON 資料型別進行自動對應的規則如下：

JSON 資料型別	Elasticsearch 型別 (`"dynamic":"true"`)	Elasticsearch 型別 (`"dynamic":"runtime"`)
`null`	不新增欄位	不新增欄位
`true` 或 `false`	`boolean`	`boolean`
`double`	`float`	`double`
`long`	`long`	`long`
`object`	`object`	不新增欄位
`array`	取決於陣列中第一個非 `null` 值	取決於陣列中第一個非 `null` 值
通過日期檢測的 `string`	`date`	`date`
通過數字檢測的 `string`	`float` 或 `long`	`double` 或 `long`
未通過 `date` 或 `numeric` 檢測的 `string`	`text` 並帶有 `.keyword` 子欄位	`keyword`

透過設定 dynamic 參數，可以有效控制 Index 的結構安全性：

在正式環境中，應避免過度依賴 Dynamic Mapping。事先規劃並明確定義 Schema，不僅能優化儲存空間與查詢效能，還能避免日後因 Mapping 變更而必須進行昂貴的 Reindex 操作。